为了解决可见光与红外图像采用基础拉普拉斯融合(Laplacian Blending)时,存在热源物体的轮廓不清晰以及曝光严重区域图像内容缺失的问题,提出一种保留红外轮廓与梯度信息的图像融合方法。首先,对输入图像进行颜色空间转换和自适应形态学去噪,并将两幅图像的梯度对比和红外图像突出目标的轮廓作为像素活动信息的权值;其次,同时分解权值与输入图像,并采用基于相似度的比较调整权重分配;最后,重构图像并转换颜色空间。在主观评价中,所提方法未产生伪影和怪异色彩,图像中的发热目标轮廓清晰;在客观评价指标中,该方法的熵(EN)为7.49,边缘梯度(EI)为74.61,平均梯度(AG)为7.23,与传统多尺度变换方法(包括非下采样轮廓波变换(NSCT)方法和基于非下采样剪切波变换(NSST)多尺度熵方法)和深度学习方法(结合残差网络(ResNet)与零相位分量分析(ZCA)的图像融合方法)相比,它的EN分别提升了0.10、0.58和0.75,EI分别提升了6.65、20.35和37.35,AG分别提升了0.73、2.19和3.55;而且它在Intel i5系列计算机上的处理速度达到5 frame/s,计算复杂度低。
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
超字并行(SLP)是一种针对基本块的向量并行发掘方法,结合循环展开可以发掘更多的并行性,但同时也会产生过多的发掘路径。针对上述问题,提出了一种分段约束的SLP发掘路径优化算法;采用分段的冗余删除方法,来保证冗余删除后段的同构性。采用段间的SLP发掘,来约束发掘路径;最后进行pack调整来处理访存重叠的情况。实验结果表明,该方法有效增强了SLP向量化功能,对于测试程序,向量化的平均加速比接近2。